Posts tagged with "Deep Learning"

卷积神经网络概述

September 26, 2025 1729 words • 9 min read

卷积神经网络 (Convolutional Neural Networks) 的灵感来源于图像处理中的“边缘检测器”： 1. 局部性 (Locality)：一个边缘检测器每次**只观察图像的一小部分区域**。 2...

Homework6 Code Part1

September 25, 2025 6324 words • 32 min read

> 由于 Homework 6 的笔记内容有些多，我把它拆分成三部分了。 Part1 的内容是从零实现 Neural Nets 的相关组件。作业初始代码的总体架构如下： - `models. py`：神经网络模型实现：负责整个网络的前向传播、反向传播和训练循环 - `layers...

#Ma-Le #Deep Learning #CNN

神经网络训练

September 25, 2025 2765 words • 14 min read

> 生成：Gemini-2. 5-pro，整理：fyerfyer 人工神经网络的许多核心概念都源于对生物大脑工作方式的模仿。通过对比生物神经系统，我们可以更深刻地理解人工神经网络的设计哲学。大脑的基本计算单元是神经元 (Neuron)，它是一个负责处理和传递信息的细胞： - **神经元 (Neuron)**：大脑和神经系统的基本构成单位，负责思考与通讯。 - **动作电位 (Action...

#Ma-Le #Deep Learning

神经网络

September 25, 2025 3135 words • 16 min read

> 生成：Gemini-2. 5-pro，整理：fyerfyer 神经网络 (Neural Networks) 是一种功能强大的非线性模型，可同时用于**分类 (Classification)** 和**回归 (Regression)** 任务。它融合了机器学习中的多个核心概念： - **感知机 (Perceptrons)**: 构成神经网络的基本单元。 - **线性/逻辑回归**:...

#Ma-Le #Deep Learning

assignment 4

August 30, 2025 2002 words • 11 min read

注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重，查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积 $k_i^T q$($i ≠ j$)。根据 $i$ 的结论，我们有 $α_j \approx 1$ 且对于所有 $i ≠ j，α_i ≈ 0$。此时： $$ c...

#NLP #Deep Learning #Transformer

微调

August 30, 2025 4520 words • 23 min read

指令微调是收集大量**覆盖不同任务的 (指令, 输出) 数据对**，然后用这些数据去微调一个已经预训练好的语言模型（LM）。 > 一个重要的发现是，我们可以利用一个非常强大的模型（如GPT-4）来生成大量的指令和回答，然后用这些生成的数据去微调一个规模小一些的开源模型。 > 对齐，“少即是多” (Less Is More for...

#NLP #Deep Learning #LLM

Transformer 架构

August 24, 2025 6343 words • 32 min read

我们可以将注意力机制（Attention）理解为一个过程，它模仿了我们**从一个“键值对（Key-Value）”存储中“软性地”查找信息的方式**： 1. 我们有一个查询（Query）。 2...

#NLP #Deep Learning #Transformer

循环神经网络

August 20, 2025 6683 words • 34 min read

语言模型的主要任务是计算**一个词语序列出现的概率有多大**。一个由 $m$ 个词组成的序列 $\lbrace w_1, . , w_m \rbrace$，它出现的概率被记为 $P(w_1,...

#NLP #Deep Learning #RNN

反向传播补充

August 18, 2025 1725 words • 9 min read

反向传播是一个高度本地化(local)的过程，可以看作是**电路中各个“门”（gate）之间的通信**： <Image src={image_image} alt="alt text" /> 电路中的每一个“门”（比如一个加法门、一个乘法门）在工作时，完全不需要知道整个电路有多复杂，也不需要知道自己处在电路的哪个位置。它**是一个独立的、封装好的模块，只会完成自己对应的操作**。...

#NLP #Deep Learning

assignment 2

August 18, 2025 3395 words • 17 min read

Because the true distribution of $y$ is a one-hot vector, where $y_w=0$ for all $w \neq 0$ and $w_o=1$, the summation $\sum y_w \log(\hat{y}_y)$ simplifies to $\log(\hat{y}_o)$ 我们需要求解下面这个偏导数： $$...

#NLP #Deep Learning #Word2vec